HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,坦白说HDFS是一个不错的分布式文件系统,它有很多的优点,但也存在有一些缺点,包括:不适合低延迟数据访问、无法高效存储大量小文件、不支持多用户写入及任意修改文件。
Apache软件基金会成立的时候,HDFS就一直在想办法提高它的性能和可用性,坦白说,这也许对试点项目、非常规项目、要求不严格的大环境中比较适用,但是对于某些Hadoop用户来说,他们对于性能、可用性、企业级特性有较高的要求,且注重直接附加存储(DAS)架构,特别是老版本的Hadoop没有高性能的主节点,那么接下来8个产品就是代替HDFS的绝佳方案。
1. Cassandra (DataStax)
并非一个完全的文件系统,而是一个开源、NoSQL 键值(key-value)商店。这给依靠快速数据访问的Web 应用多了一个HDFS选择。简单来说它把Hadoop融合在Cassandra里面,支持Web应用通过Hadoop快速访问数据, 而Hadoop可以快速访问流入Cassandra的数据。
2. Ceph
Ceph 是一个开源、多管齐下的操作系统,因为其高性能并行文件系统的特性,有人甚至认为它是基于Hadoop环境下的HDFS的接班人,因为自2010年就有研究者在寻找这个特性。
3. Cleversafe:分散存储网络
本周一Cleversafe宣布将融合Hadoop的并行编程技术和自己的分散存贮网络。其原理是通过把整个元数据分布在集群中(不是依靠单个主节点、不是依靠复制),Cleversafe表示这比HDFS更快、更稳定、更具扩展性。
4. GPFS (IBM)
IBM一直在向高性能要求的用户销售其并行文件系统,包括世界上最快的超级电脑,2010年它推出了基于Hadoop的GPFS, 并宣布GPFS不共享集群版本比Hadoop快多了,因为
它在内核级别中运行,而不是在操作系统中运行例如HDFS。
5. Isilon (EMC)
EMC提供Hadoop发行版已经一年了,但2012年1月转型为HDFS企业级别的新方案——Isilon 的 OneFS文件系统。因为Isilon可以读取 NFS, CIFS以及 HDFS 协议, 一个单独的 Isilon NAS系统可以摄入、处理、分析数据。
6. Lustre
HPC存储提供商Xyratex 增在2011年的一份报道中写到, 基于Lustre的集群会比基于HDFS的集群更快更便宜。
7. MapR 文件系统
MapR 文件系统在业内已经具有一定知名度了,不仅MapR宣布它自己的文件系统比HDFS快2-5倍(实际上有20倍),它还具有镜像、快照、高性能这些企业用户喜欢的特点。
8. NetApp Hadoop开放方案
NetApp重新改版了物理Hadoop结构:把HDFS放在磁盘阵列中,通过这样来达到更快、更稳定、更安全的Hadoop工作。
XSKY开发了基于对象存储XEOS的专用Hadoop HDFS高性能客户端XSKY HDFS Client。
原先支持Hadoop的四大商业机构纷纷宣布支持Spark,包含知名Hadoop解决方案供应商Cloudera和知名的Hadoop供应商MapR。
证券交易数据属于典型的结构化数据,采用Sql on Hadoop[1]技术,既可用廉价PC服务器获得良好的容量线性扩展能力,又可提供便于统计分析的SQL接口方便数据应用开发。
本文总结Hadoop十个认识误区,帮助大家更好地理解和学习Hadoop。由于Hadoop本身是由并行运算架构(MapReduce)与分布式文件系统(HDFS)所组成,所以我们也看到很多研究机构或教育单位,开始尝试把部分原本执行在HPC 或Grid上面的任务
数据产生后,意味着数据的采集工作已经完成,那么数据的输入与有效输出问题怎么破解?
【聚焦搜索,数智采购】2021第一届百度爱采购数智大会即将于5月28日在上海盛大开启!
本次大会上,紫晶存储董事、总经理钟国裕作为公司代表,与中国—东盟信息港签署合作协议
XEUS统一存储已成功承载宣武医院PACS系统近5年的历史数据迁移,为支持各业务科室蓬勃扩张的数据增量和访问、调用乃至分析需求奠定了坚实基础。
大兆科技全方面展示大兆科技在医疗信息化建设中数据存储系统方面取得的成就。
双方相信,通过本次合作,能够使双方进一步提升技术实力、提升产品品质及服务质量,为客户创造更大价值。